Podsumowanie analizy

Wstepna analiza wykazala wiele niescislosci w podanym zestawie danych. Pierwszym problemem jest nie chronologiczne ustawienie danych przez co nie mozna jesdnoznacznie stwierdzic roku w którym wykonane byly pomiary. Takze dane pomiary z danego miesiaca sa pomieszane i nie sa pogrupowane razem. Zmienna totaln reprezentujaca ilosc sledzi jest podana jako number, a nie jako integer. W zestawie danych pojawia sie takze sporo wartosci NA jest ich: 11056. W tym przypadku przy tak duzej ilosci niepelnych danych nie mozna bylo ich poninac. Pierwszym podejciem bylo uzupelnienie dancyh wartosciami srednimi z danego misiaca niestety nie powtórna analiza wykazala, ze nie jest to odpowiednie podejscie. Po kolejnym przeanalizowaniu danych zawuwazona zaostala zaleznosc pomiedzy danymi oraz to, ze sie powtarzaja w grupach. Wiec dane puste zostaly zastapione takimi samymi wartosciami jak ich sasiedzi, którzy posiadaja takie same pozostaae wartossci. Dzieki temu dane sa spójne. Po wykonaniu histogramu zmiennej length okazalo sie, ze prezentuje on rozklad normalny. Nastepnie dane zostaly znormalizowane do przedzialu od 0 do 1 tak aby uniknac faworyzowania zmiennych. Znormalizowane zostaly tylko dane treningowe testowe pozostaly niezmienione. Jak widac na modelach jak i na macierzy korelacji najwiekszy wplyw na dlugosc sledzia ma temperatura przy powierzchni wody, a takze dostepnosc planktonu. Do regresji zostaly uzyte 2 metody Random Forest oraz Stochastic Gradient Boosting. Lepiej wypadla metoda Random forest choc nie pokazala, najwiekszej zaleznosci zmiennej length od temperatury przy powierzchni wody. Wydaje mi sie, ze duzym problememjest slaby opis danych, który jest niejednoznaczny.

Podsumowanie zbioru danych.

Najwazeniejsze informacje na temat zbioru sledzi po usnieciu wartosci pustych oraz wstepnym przetworzeniu danych. Ponizej przedstawiona jest legenda, która przedstawia co oznaczaja poszczególne zmienne.

Dane na temat zbioru sledzi:

##        X             length         cfin1             cfin2        
##  Min.   :    0   Min.   :19.0   Min.   : 0.0000   Min.   : 0.0000  
##  1st Qu.:13145   1st Qu.:24.0   1st Qu.: 0.0000   1st Qu.: 0.2778  
##  Median :26291   Median :25.5   Median : 0.1111   Median : 0.7012  
##  Mean   :26291   Mean   :25.3   Mean   : 0.4462   Mean   : 2.0261  
##  3rd Qu.:39436   3rd Qu.:26.5   3rd Qu.: 0.3333   3rd Qu.: 1.7936  
##  Max.   :52581   Max.   :32.5   Max.   :37.6667   Max.   :19.3958  
##      chel1            chel2            lcop1              lcop2       
##  Min.   : 0.000   Min.   : 5.238   Min.   :  0.3074   Min.   : 7.849  
##  1st Qu.: 2.469   1st Qu.:13.427   1st Qu.:  2.5479   1st Qu.:17.808  
##  Median : 5.750   Median :21.435   Median :  7.0000   Median :24.859  
##  Mean   :10.003   Mean   :21.218   Mean   : 12.8053   Mean   :28.423  
##  3rd Qu.:11.500   3rd Qu.:27.193   3rd Qu.: 21.2315   3rd Qu.:37.232  
##  Max.   :75.000   Max.   :57.706   Max.   :115.5833   Max.   :68.736  
##       fbar             recr              cumf             totaln       
##  Min.   :0.0680   Min.   : 140515   Min.   :0.06833   Min.   : 144137  
##  1st Qu.:0.2270   1st Qu.: 360061   1st Qu.:0.14809   1st Qu.: 306068  
##  Median :0.3320   Median : 421391   Median :0.23191   Median : 539558  
##  Mean   :0.3304   Mean   : 520367   Mean   :0.22981   Mean   : 514973  
##  3rd Qu.:0.4560   3rd Qu.: 724151   3rd Qu.:0.29803   3rd Qu.: 730351  
##  Max.   :0.8490   Max.   :1565890   Max.   :0.39801   Max.   :1015595  
##       sst             sal            xmonth            nao          
##  Min.   :12.77   Min.   :35.40   Min.   : 1.000   Min.   :-4.89000  
##  1st Qu.:13.60   1st Qu.:35.51   1st Qu.: 5.000   1st Qu.:-1.89000  
##  Median :13.86   Median :35.51   Median : 8.000   Median : 0.20000  
##  Mean   :13.88   Mean   :35.51   Mean   : 7.258   Mean   :-0.09236  
##  3rd Qu.:14.16   3rd Qu.:35.52   3rd Qu.: 9.000   3rd Qu.: 1.63000  
##  Max.   :14.73   Max.   :35.61   Max.   :12.000   Max.   : 5.08000

Rozmiar zbioru:

## [1] 52582

Analiza wartosci atrybutów

Dlugosc sledzi

Dostepnosc planktonu[zageszczenie Calanus finmarchicus gat. 1]

Dostepnosc planktonu[zageszczenie Calanus finmarchicus gat. 2]

Dostepnosc planktonu [zageszczenie Calanus helgolandicus gat. 1]

Dostepnosc planktonu [zageszczenie Calanus helgolandicus gat. 2]

Dostepnosc planktonu [zageszczenie widlonogów gat. 1]

Dostepnosc planktonu [zageszczenie widlonogów gat. 2]

Natezenie polowów w regionie [ulamek pozostawionego narybku]

Roczny narybek [liczba sledzi]

Laczne roczne natezenie polowów w regionie [ulamek pozostawionego narybku]

Laczna liczba ryb zlowionych w ramach polowu [liczba sledzi]

Temperatura przy powierzchni wody [°C]

Poziom zasolenia wody [Knudsen ppt]

Oscylacja pólnocnoatlantycka [mb]

Zmiana dlugosci sledzia w czasie:

Jezeli zalozymy, ze dane sa poukladane chronologicznie to wykres zmiany dlugosci w czasie bedzie wygladal nastepujaco.

library(plotly)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following objects are masked from 'package:plyr':
## 
##     arrange, mutate, rename, summarise
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
library(ggplot2)
p<-ggplot(sledzie, aes(x = X, y=length)) + geom_point() + geom_smooth(method="auto", se=TRUE, color="red")

ggplotly(p)
## `geom_smooth()` using method = 'gam'

Jezeli natomiast dane nie sa posortowane chronologicznie mozna je pogrupowac po wartosci zmiennej recr która mówi o rocznym polowie a wiec w sposób nie bezposredni definiuje nam poszczególne lata.

Jak widac trend jest dosyc podobny w obu przypadkach.

Aby miec wiekszy poglad na te dane zobaczmy jak ksztaltowaly sie wartosci zmiennych w poszczególnych latach(srednie wartosci zmiennych dla poszczególnych wartosci zmiennej recr):

library(plyr)
library(dplyr)
library(dplyr)
library(printr)
var<-sledzie%>%group_by(recr)%>%summarize(mean_cfin1=mean(cfin1),mean_cfin2=mean(cfin2),
                                          mean_chel1=mean(chel1),mean_chel2=mean(chel2),
                                          mean_lcop1=mean(lcop1),mean_lcop2=mean(lcop2),
                                          mean_fbar=mean(fbar),mean_cum=mean(cumf),
                                          mean_totaln=mean(totaln),mean_sst=mean(sst),
                                          mean_sal=mean(sal),mean_nao=mean(nao))
head(var,length(var$recr))
recr mean_cfin1 mean_cfin2 mean_chel1 mean_chel2 mean_lcop1 mean_lcop2 mean_fbar mean_cum mean_totaln mean_sst mean_sal mean_nao
140515 0.0002490 1.7928143 3.711355 31.426140 3.914250 36.571965 0.3370000 0.3461349 182192.7 14.13613 35.51955 0.7600000
148045 0.0000000 0.7272441 2.594878 33.115302 5.350880 37.210289 0.5470000 0.2714717 179955.4 13.39543 35.49992 -2.1400000
163005 0.2181000 0.5777800 3.196834 20.158120 4.261900 39.902140 0.3900000 0.2571368 147331.7 13.90653 35.51142 2.5200000
168531 0.2053600 19.3958300 11.245540 32.649400 11.776790 65.455210 0.4670000 0.3854825 201854.9 13.19707 35.47843 -2.2500000
186562 0.1005300 0.0000000 5.095260 15.318104 5.717370 16.842920 0.4250000 0.2176548 158165.2 14.05720 35.51374 1.3700000
204165 0.0875631 0.0256400 7.887500 33.508820 9.018750 39.183820 0.2920000 0.2147636 160242.8 13.56747 35.48954 1.2300000
208551 0.1838400 2.0001612 1.924070 17.889270 2.187880 22.098554 0.3370000 0.2728057 539558.4 14.42667 35.51339 3.9600000
227463 0.1000000 0.3714300 3.880445 25.840100 5.187500 28.050717 0.2680000 0.1883533 172576.8 13.87040 35.50400 1.6300000
247178 0.0400000 0.8048900 6.527310 18.628027 6.746410 22.970922 0.6880000 0.3980148 307276.5 14.72520 35.51633 -0.1700000
254830 0.0000000 0.9224700 75.000000 30.408100 74.969812 38.220573 0.5670000 0.2980328 568477.6 13.59640 35.46781 -4.8900000
282152 0.0370400 0.0000000 0.228700 15.832320 0.317545 16.139679 0.8490000 0.3630819 144136.7 13.37547 35.50901 0.1700000
282493 0.4178600 0.5877900 2.704400 10.947900 3.499760 15.003140 0.5000000 0.2866648 306160.3 13.60000 35.52906 -0.9600000
327066 0.0294985 0.2504959 8.662444 27.192860 8.984390 29.605064 0.5210000 0.2767387 194320.1 13.06587 35.49925 0.3400000
351797 0.7459915 0.6335547 14.679700 28.045260 16.365590 35.152996 0.4650000 0.2811635 375469.5 14.55720 35.61034 3.9600000
355107 0.0000000 0.0000000 4.811380 12.728350 5.165740 15.893640 0.0830000 0.0736151 595514.4 14.44133 35.45592 2.0500000
359652 0.1333300 1.5804600 1.879170 14.521228 2.234720 20.093760 0.3990000 0.2243824 555586.3 14.02253 35.51105 3.2800000
360061 0.0000431 0.1173600 12.151920 39.568090 12.495880 41.628954 0.1380000 0.2665911 289260.6 14.44160 35.39803 0.2000000
364794 3.0000000 3.0448993 4.000000 16.128790 7.000000 23.366520 0.2000000 0.1095853 655248.7 14.39387 35.51206 -0.3700000
370511 0.0100000 0.2671300 6.571670 37.638010 7.071670 39.981285 0.6630000 0.3502113 279064.5 13.85867 35.53935 -3.7800000
373947 0.1000000 1.0912700 2.266790 24.837650 2.503010 31.027950 0.0740000 0.1033722 396283.7 14.65293 35.55342 1.0918788
392084 0.9418352 0.2960097 6.138738 21.668940 8.982271 24.858672 0.1580000 0.1100757 766077.6 14.06922 35.51526 -1.5400000
405494 0.0000000 0.1870000 0.000000 11.116160 1.750000 20.965330 0.1410000 0.0755325 1015594.9 13.28067 35.51322 -2.3800000
421391 0.0000000 0.7011800 11.499943 5.683691 22.992102 9.191343 0.2270000 0.1480941 730351.2 13.63160 35.50835 -2.8600000
423281 0.0684433 1.4159623 7.751343 9.417813 14.490526 14.156656 0.1360000 0.1094430 904060.3 13.75026 35.50865 -0.4553333
441827 0.3595984 5.3640200 4.326740 27.112108 5.071755 36.626280 0.4340000 0.3726272 191976.2 14.47771 35.50777 -1.9000000
459347 0.0933000 6.5288400 4.315840 28.070770 4.469810 42.959895 0.2310000 0.2590166 264308.2 14.57347 35.50983 1.7000000
465638 0.1894000 0.8568400 0.603080 9.432080 0.828030 10.761666 0.5710000 0.3500081 383913.5 13.86246 35.51779 0.5600000
469158 4.8333300 4.2111900 36.333330 57.626808 41.166670 68.598205 0.4560000 0.2773366 413634.1 13.73827 35.46280 -1.0400000
473462 0.0545500 0.2313400 1.488682 11.670930 1.835150 17.807530 0.5910000 0.3758273 306067.6 14.35618 35.52329 0.7200000
474983 3.1446200 5.8014500 4.261480 18.438390 7.671480 27.470012 0.2540000 0.2073709 534157.2 13.89253 35.50455 -0.7500000
482831 0.0277800 0.2778500 2.471847 21.439224 2.547870 26.363420 0.3560000 0.3059879 267380.8 14.30693 35.51234 2.8000000
503264 0.0860538 0.5722722 1.366600 5.237640 1.531640 7.969152 0.5030000 0.3069927 329159.4 14.65493 35.52548 5.0800000
574641 0.2400000 4.9180700 6.082860 13.589210 7.122860 22.667706 0.3910000 0.2315489 514114.5 13.51507 35.50230 0.7200000
640184 0.2344300 1.5396000 1.372060 13.426620 1.853220 20.296208 0.4030000 0.2585906 519512.4 14.15572 35.43245 1.6000000
650742 1.2133300 4.5582500 19.154750 26.803755 21.231470 45.677052 0.2390000 0.2223979 676596.4 13.55987 35.52449 -0.6300000
664944 0.6171000 13.1433800 3.590480 33.909170 5.212690 64.823460 0.3760000 0.2327722 542230.0 13.98507 35.50663 3.4200000
717939 0.1415800 0.3020300 2.030660 20.123260 2.241147 24.081406 0.4220000 0.2532627 460804.1 13.66578 35.51403 3.0300000
724151 1.0250800 3.6631900 6.421270 25.508235 10.928570 37.392010 0.4850000 0.3838187 457143.9 13.71160 35.51169 2.0500000
741245 0.1111100 1.5690553 32.000000 26.310961 33.333330 36.193003 0.2440000 0.1640387 763082.9 13.48293 35.52719 -2.8800000
766083 0.0357521 1.0734500 0.766420 10.109630 1.342720 14.554657 0.3180000 0.2324083 559434.9 13.79867 35.51146 2.6700000
774993 0.8412095 0.0007815 22.659978 15.038492 29.069180 17.693025 0.3670000 0.2035341 826464.9 13.69493 35.54564 -1.6900000
783337 2.1433300 4.4588200 6.386670 26.171870 9.010000 32.190900 0.3270000 0.3096315 492519.0 13.98122 35.61240 0.8000000
824154 0.0000000 0.2450777 30.833330 28.213380 31.500000 31.376650 0.5230000 0.2951823 389403.1 13.69187 35.49790 -1.8900000
833003 0.2000000 0.0131200 2.418780 17.208940 2.810200 22.684790 0.0680000 0.0683259 363016.8 14.72947 35.58002 2.0500000
837339 0.8160084 0.3669823 6.051593 15.537214 9.683288 22.827520 0.0980000 0.0779181 631877.9 14.21173 35.51007 1.8000000
907207 0.3333300 0.1835300 9.719020 17.538910 27.333330 25.373964 0.3320000 0.2319097 597698.7 13.63173 35.52012 1.2800000
958184 0.8968600 6.0374000 3.022680 16.159164 4.424930 23.850791 0.3300000 0.2063772 482348.4 13.64259 35.51181 1.0300000
1079510 0.1416700 0.0845326 7.646430 29.719699 13.088100 30.834044 0.1300000 0.1771845 303522.2 14.51280 35.59639 -0.0700000
1193220 0.3183397 2.5139182 6.943050 25.269898 9.022470 28.709176 0.2920000 0.2065740 589460.5 12.77135 35.52640 0.5000000
1322000 0.0000000 0.0100000 1.021430 26.006170 1.064290 34.145600 0.1000000 0.0922202 648314.9 14.55560 35.53620 2.0500000
1380210 0.1666700 0.5566776 5.750000 36.599190 5.945652 45.358867 0.1998266 0.1069226 774752.4 13.06453 35.51174 -3.6000000
1565890 37.6666700 10.1696200 64.750000 43.644700 115.583330 59.085240 0.1250000 0.0958601 727441.4 13.61893 35.53495 -1.0200000
# Korelacj a atrybutów
length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal nao
length 1.00 0.08 0.10 0.22 -0.01 0.24 0.05 0.25 -0.01 0.01 0.10 -0.45 0.03 -0.26
cfin1 0.08 1.00 0.15 0.09 0.20 0.12 0.21 -0.06 0.12 -0.05 0.13 0.01 0.13 0.01
cfin2 0.10 0.15 1.00 0.00 0.31 -0.04 0.65 0.15 -0.10 0.34 -0.22 -0.24 -0.08 -0.01
chel1 0.22 0.09 0.00 1.00 0.29 0.96 0.25 0.16 -0.05 0.07 0.17 -0.22 -0.15 -0.51
chel2 -0.01 0.20 0.31 0.29 1.00 0.18 0.88 0.03 0.00 0.26 -0.38 0.01 -0.22 -0.06
lcop1 0.24 0.12 -0.04 0.96 0.18 1.00 0.15 0.10 0.00 -0.01 0.27 -0.26 -0.10 -0.55
lcop2 0.05 0.21 0.65 0.25 0.88 0.15 1.00 0.05 0.00 0.29 -0.30 -0.12 -0.18 -0.04
fbar 0.25 -0.06 0.15 0.16 0.03 0.10 0.05 1.00 -0.24 0.82 -0.51 -0.18 0.04 0.07
recr -0.01 0.12 -0.10 -0.05 0.00 0.00 0.00 -0.24 1.00 -0.26 0.37 -0.20 0.28 0.09
cumf 0.01 -0.05 0.34 0.07 0.26 -0.01 0.29 0.82 -0.26 1.00 -0.71 0.03 -0.10 0.23
totaln 0.10 0.13 -0.22 0.17 -0.38 0.27 -0.30 -0.51 0.37 -0.71 1.00 -0.29 0.15 -0.39
sst -0.45 0.01 -0.24 -0.22 0.01 -0.26 -0.12 -0.18 -0.20 0.03 -0.29 1.00 0.01 0.51
sal 0.03 0.13 -0.08 -0.15 -0.22 -0.10 -0.18 0.04 0.28 -0.10 0.15 0.01 1.00 0.13
nao -0.26 0.01 -0.01 -0.51 -0.06 -0.55 -0.04 0.07 0.09 0.23 -0.39 0.51 0.13 1.00

Jak widac mam trzy pary skorelowanych dodatnich ze saba zmiennych :

  1. lcop1 - chel1 -> 0.96

  1. lcop2 - chel2 -> 0.88

  1. fbar - cumf -> 0.82

Oraz jedna pare zmiennych skorelowanych ujemnie:

  1. totaln - cumf -> -0.71

Dla przykladu jak widac zmienne lcop1,chal1 w polaczeniu ze zmienna length maja bardzo podobna wartosc:

Usuniecie silnie skorlowawnych danch:

Regresor

Wartosc RMSE dla random forrest o paramterach number = 2 i repeats = 5:

## [1] 1.639593

Wynik zbioru trningowego:

mtry RMSE Rsquared RMSESD RsquaredSD
2 1.186616 0.4836092 0.0034619 0.0021886
6 1.187033 0.4832753 0.0035525 0.0021495
10 1.187323 0.4830191 0.0033672 0.0019964

Wartosc RMSE dla Stochastic Gradient Boosting:

## [1] 1.828024

Wynik zbioru trningowego:

shrinkage interaction.depth n.minobsinnode n.trees RMSE Rsquared RMSESD RsquaredSD
1 0.1 1 10 50 1.295578 0.4004936 0.0111707 0.0102719
4 0.1 2 10 50 1.234282 0.4469241 0.0116917 0.0102356
7 0.1 3 10 50 1.210377 0.4654263 0.0125273 0.0106578
2 0.1 1 10 100 1.257651 0.4249372 0.0116365 0.0100652
5 0.1 2 10 100 1.206139 0.4680349 0.0128815 0.0105481
8 0.1 3 10 100 1.193233 0.4782504 0.0136845 0.0110176
3 0.1 1 10 150 1.239350 0.4401986 0.0121557 0.0103026
6 0.1 2 10 150 1.196407 0.4756238 0.0137473 0.0111532
9 0.1 3 10 150 1.188967 0.4817249 0.0140189 0.0110185

Analiza waznosci atrybutów

Dla Random Foorest:

varImp(fit$finalModel)
Overall
cfin1 3.111408
cfin2 5.747870
lcop1 6.637928
lcop2 7.127210
fbar 4.080895
recr 4.104960
totaln 6.427989
sst 7.194826
sal 3.943398
nao 1.696503

Dla Stochastic Gradient Boosting

varImp(gbmFit$finalModel)
Overall
cfin1 3909.3983
cfin2 3825.5970
lcop1 9907.7995
lcop2 7439.6102
fbar 6076.4766
recr 19842.7477
totaln 9304.6444
sst 75322.5532
sal 976.1131
nao 3069.9548